草庐IT

python Pandas : select columns with all zero entries in dataframe

全部标签

python - 检查 dataframe 是否为 bool 类型 pandas

我有一个pandasDataFrame如下:In[108]:df1Out[108]:vt2014-02-2110:30:43False2014-02-2110:31:34False2014-02-2110:32:25False2014-02-2110:33:17False2014-02-2110:34:09False2014-02-2110:35:00False2014-02-2110:35:51False我需要检查此数据帧的dtype是否为bool。我试过:In[109]:printisinstance(df1,bool)False**它应该返回**True****我该怎么做?引用:

使用 SQLAlchemy 从 Pandas Dataframe 创建 Python MS Access 数据库表

我正在尝试从Python创建一个MSAccess数据库,并且想知道是否可以直接从pandas数据框创建一个表。我知道我可以使用pandasdataframe.to_sql()函数将数据帧成功写入SQLite数据库,或者通过使用sqlalchemy引擎来处理其他一些数据库格式(但不幸的是不能Access),但我不能不要让所有零件组合在一起。这是我一直在测试的代码片段:importpandasaspdimportsqlalchemyimportpypyodbc#Usedtoactuallycreatethe.mdbfileimportpyodbc#Connectionfunctiontou

python - Pandas Dataframe 上的滑动窗口

我有一个包含时间序列数据的Pandas数据框。我目前正在操纵这个数据框来创建一个新的、更小的数据框,它是每10行的滚动平均值。即滚动窗口技术。像这样:defcreate_new_df(df):features=[]x=df['X'].astype(float)i=x.index.valuestime_sequence=[i]*10idx=np.array(time_sequence).T.flatten()[:len(x)]x=x.groupby(idx).mean()x.name='X'features.append(x)new_df=pd.concat(features,axis=

python - 将函数应用于 pandas dataframe groupby 中的第二列

在pandas数据框中,可以使用函数对其索引进行分组。我希望定义一个应用于列的函数。我希望按两列分组,但我需要按任意函数foo对第二列进行分组:group_sum=df.groupby(['name',foo])['tickets'].sum()如何定义foo以将第二列分为两组,例如,根据值是否为>0来划分?或者,是否使用了完全不同的方法或语法? 最佳答案 Groupby可以接受标签和系列/数组的任意组合(只要数组的长度与数据框的长度相同),因此您可以将函数映射到您的列并将其传递到groupby,例如df.groupby(['nam

用于存储对象的 Python DataFrame 或列表

我可以在pandas/numpySeries-DataFrame/ndarray中“存储”类的实例吗就像我在列表中所做的那样?或者这些库支持内置类型(数字、字符串)。例如,我有Point和x,y坐标,我想将Points存储在Plane中,这将返回具有给定坐标的Point。#myclassclassMyPoint:def__init__(self,x,y):self.x=xself.y=y@propertydefx(self):returnself.x@propertydefy(self):returnself.y这里我创建实例:first_point=MyClass(1,1)secon

python - 将 Pandas DataFrame 切片为新的 DataFrame

我想用bool索引对DataFrame进行切片以获得副本,然后独立于原始DataFrame在该副本上执行操作。由此看来answer,使用bool数组选择.loc将返回给我一个副本,但是,如果我尝试更改副本,SettingWithCopyWarning会妨碍。这是否是正确的方法:importnumpyasnpimportpandasaspdd1=pd.DataFrame(np.random.randn(10,5),columns=['a','b','c','d','e'])#createanewdataframefromtheslicedcopyd2=pd.DataFrame(d1.lo

Python pandas dataframe - 任何以编程方式设置频率的方法?

我正在尝试像这样处理CSV文件:df=pd.read_csv("raw_hl.csv",index_col='time',parse_dates=True))df.head(2)highlowtime2014-01-0117:00:001.3762351.3759452014-01-0117:01:001.3760051.3757752014-01-0117:02:001.3757951.3754452014-01-0117:07:00NaNNaN...2014-01-0117:49:001.3756451.375445type(df.index)pandas.tseries.inde

python - 如何从 DataFrame 的命名列级别中选择值的子集?

假设我们有一个包含多级列标题的DataFrame。level_0ABClevel_1PPPlevel_2xyxyxy0-1.0271550.6674890.314387-0.4286071.277167-1.32877110.223407-1.7134100.480903-3.517518-1.4127560.718804我想从命名级别中选择列列表。required_columns=['A','B']required_level='level_0'方法1:(已弃用,推荐使用df.loc)printdf.select(lambdax:x[0]inrequired_columns,axis

python - 如何使用增量值向 Pyspark 中的 DataFrame 添加一列?

我有一个名为“df”的DataFrame,如下所示:+-------+-------+-------+|Atr1|Atr2|Atr3|+-------+-------+-------+|A|A|A|+-------+-------+-------+|B|A|A|+-------+-------+-------+|C|A|A|+-------+-------+-------+我想用增量值向它添加一个新列并获取以下更新的DataFrame:+-------+-------+-------+-------+|Atr1|Atr2|Atr3|Atr4|+-------+-------+-----

python - DataFrame 列中的混合类型元素

考虑以下三个DataFrame:df1=pd.DataFrame([[1,2],[4,3]])df2=pd.DataFrame([[1,.2],[4,3]])df3=pd.DataFrame([[1,'a'],[4,3]])下面是DataFrame的第二列的类型:In[56]:map(type,df1[1])Out[56]:[numpy.int64,numpy.int64]In[57]:map(type,df2[1])Out[57]:[numpy.float64,numpy.float64]In[58]:map(type,df3[1])Out[58]:[str,int]在第一种情况下,